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Method 




and-a^paratus for determining a set of large 
seguenc s from an electronic data base 



The invention relates to the art of sequential analysis in elec- 
tronic data bases. 

5 Background of the invention 

In sequential analyses sequences of items are extracted from trans- 
actional electronic data. As more and more transactional data are 
acquired electronically sequential analysis becomes more important. 

A practical example of a sequential analysis is the clickstream 
10 analysis for calculating typical user paths of Web site users. Fur- 
ther examples of sequential analyses are text analysis for extract- 
ing characteristic series of words in electronically memorized docu- 
ments and the analysis of baskets of merchandise taking into account 
the order of products in trade to define typical product chain pur- 
15 chases. Moreover, sequential analyses are widely used in chemistry 
and genetics. 

A great number of specialized methods of sequential analysis are 
known to date, especially in genetics. However, very few of them are 
universally applicable. In the simplest case, all variants of possi- 

2 0 ble sequences are studied as regards their frequency. But for rea- 
sons of computer capacity that can be done only for small amounts of 
data. Sequential analysis algorithms based on search trees present 
an alternative, such as the algorithm "Capri" by Messrs. Lumio 
(http://www.spss.com/PDFs/CP2SPCZ-1201.pdf). Yet their speed, too, 

25 is insufficient for analyzing large transaction data. Methods based 
on the classical analysis of baskets of merchandise offer a quicker 
alternative and have already been used for sequential analysis of 
baskets of merchandise (Agrawal R. , Srikant R. , Mining Sequential 
Patterns. IBM Almaden Research Center, 650 Harry Road, San Jose) . 
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The invent ion 1 

It is an object of the invention to indicate a method of and an ap- 
paratus for determining a set of large sequences from an electronic 
data base by which known shortcomings are overcome and, especially, 
5 an efficient sequential analysis can be performed on large amounts 
of data in diverse applications. 

According to one aspect of the invention, a method is provided of 
determining a set of large sequences from an electronic data base 
comprising a set D = {dl,...,dn} of transactions di (l<i<n) in a 

10 computer system with an implemented query module, each of the large 
sequences on the set D of transactions di having a support value 
greater than or equal to a given support value S, each of the trans- 
actions di of the set D being a sequence of items of a record E = 
{el,..., em} of items ej (l<j<m) and the method comprising the fol- 

15 lowing steps: 

a) determining a set Ll of large sequences from the set D of 



25 



20 



30 



35 



b) 



c) 



transactions, the large sequences of set Ll each comprising ex- 
actly one item of the record E, and an associated support value 
S L1 on the sequence D of transactions each being greater than or 
equal to the given support value S ; 

determining a set L2 of large sequences from the set D of 
transactions, the large sequences of set L2 each comprising ex- 
actly two items of the record E in a respective order R L2 , and 
an associated support value S L2 on the set D of transactions 
each being greater than or equal to the given support value S, 
and nothing but sequences comprising one of the large sequences 
of set Ll, as a partial sequence, being taken into account in 
determining set L2 ; 

determining a set Lk (k>2) of large sequences from the set D of 
transactions, the large sequences of set Lk each comprising ex- 
actly k items of record E in a respective order R LK , and an as- 
sociated support value S LK on the sequence D of transactions 
each being greater than or equal to the given support value S, 
and nothing but sequences comprising two of the large sequences 
of set Lk-1, as partly overlapping partial sequences, with the 



respective order R L k-i/ being taken into account in determining 
set Lk; and 

d) repeating step c) for k = k+1 and terminating the repetition of 
step c) when a given termination condition is fulfilled. 

5 According to another aspect of the invention an integrated sequen- 
tial analysis system is provided, comprising: 

an electronic data base comprising a set D = {dl,...,dn} of 
transactions di (l<i<n) , each of the large sequences on the set 
D of transactions di having a support value greater than or 
10 equal to a given support value S, each of the transactions di 

of the set D being a sequence of items of a record E = 
{el, . . . ,em} of items ej (l<j<m) ; 

a query module comprising a query means coupled to the data 
base and a processing means for detecting query parameters and 

15 generating queries to the query means; 

means for determining a set LI of large sequences from the set 
D of transactions, the large sequences of set LI each compris- 
ing exactly one item of the record E, and an associated support 
value S L i on the sequence D of transactions each being greater 

20 than or equal to the given support value S; 

means for determining a set L2 of large sequences from the set 
D of transactions, the large sequences of set L2 each compris- 
ing exactly two items of the record E in a respective order R L2 , 
and an associated support value S L2 on the set D of transactions 

25 each being greater than or equal to the given support value S, 

and nothing but sequences comprising one of the large sequences 
of set LI, as a partial sequence, being taken into account in 
determining set L2 ; 

means for determining a set Lk (k>2) of large sequences from . 

3 0 the set D of transactions, the large sequences of set Lk each 

comprising exactly k items of record E in a respective order 
R LK , and an associated support value S LK on the sequence D of 
transactions each being greater than or equal to the given sup- 
port value S, and nothing but sequences comprising two of the 

35 large sequences of set Lk-1, as partly overlapping partial se- 

quences, with the respective order R LK -i being taken into ac- 
count in determining set Lk; and 



II 
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means for repeating step c) for k = k+1 and terminating the 
repetition of step c) when a given termination condition is 
fulfilled. 

In contrast to the classical basket of merchandise analysis, the in- 
5 vention takes into account the order of items in the transactions. 
The invention permits automatic evaluations of extensive amounts of 
electronic data according to characteristic sequences to be made ef- 
ficiently in terms of time and computer capacity. Sequential analy- 
sis of large amounts of data, such as contained in logfiles of heav- 
10 ily frequented Web servers thus becomes possible for the first time. 



Drawing 



The invention will be described further, by way of example, with 
reference to the accompanying drawings, in which: 



15 



Fig. 1 



is a diagrammatic presentation to explain a sequential 
analysis method according to the invention in connection 
with a clickstream analysis, - 



Fig. 2 



is a diagrammatic presentation of an arrangement for car- 
rying out a sequential analysis method according to the 
invention; 



20 



Fig. 3 



is a flowchart of an embodiment of a sequential analysis 
method according to the invention in accordance with a 
first variant; and 



Fig. 4 



is a flowchart of an embodiment of a sequential analysis 
method according to the invention in accordance with a 



25 



second variant . 



Examples of embodiments 



A method of and an apparatus for determining a set of large se- 
quences from an electronic data base will be described below with 
reference to figs. 1 to 4. 



30 



First of all, the problem to be solved by sequential analysis will 
be explained in detail. Let it be assumed that E = {el, e2 , . . . , em}, 
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a record of literal constants, referred to as items. A sequence <s 0 , 
Si,..., s k ) be an ordered list of items. D = {dl, d2,..., dn} , a rec- 
ord of transactions, each transaction di (l<i<n) a sequence of items 
from E so that: di c E. An unambiguous identifier, designated "di- 
5 ID", is associated with each transaction. 

The sequence <a0, al, . . . , ak> is included (partial sequence) in an- 
other sequence <b0 , bl, . . . bl> when natural non-negative numbers 
ix<i 2 < <ik exist so that: 

al = bii; a2 = bi 2 ; - - . ; ak = bi k . 

10 It is defined that a sequence A possesses a support s% on the set of 
transactions D if it is contained in s% of all transactions of set 
D. A sequence is said to be large if its support is not smaller than 
a given minimum value. A sequence having a length k is called k- 
sequence . The set of all k- sequences will be referred to below as 

15 Lk. The set of all k- sequences which potentially may be large is 
called Ck. 

Set E can be mapped unambiguously on a subset of natural numbers, 
i.e. an unambiguous natural identifier may be assigned to each item 
from E. 

2 0 Using the designations introduced above, the object to be met may be 
defined as follows: Based on the given sets E and D, all sequences 
are to be found whose support value is greater than or equal to a 
given minimum value, i.e. the following set is looked for: 



25 A known solution trial to resolve the above problem resides in list- 
ing all the possible sequences of items of set E and counting the 
transactions containing them. The number of all possible sequences 
of set E having a length of from 1 to k is found. The power of set E 
is m. The number of sequences of length 1 equals the number of items 

30 of set E, in other words m. The number of all possible sequences of 




k 



length i of m items is m 1 . Then the number of all sequences N equals 
the sum of the geometric progression to the basis m: 



/=1 



m M -m 



Ar 100 u -100 1A20 

For just m = 100 and k = 10 already we get N= «10 differ- 

100-1 

5 ent sequences. It is obvious that such a solution trial is inac- 

ceptable. For real data, distinctly less sequences are contained in 
all transactions of set D. 

It is much more logical and quicker to test all the sequences which 
are included in each transaction and to define the support value for 
10 each of them. Assuming the length of transaction do' to be m, this 
would mean that the transaction do includes the number of all se- 
quences of length i which equals the set of i combinations of the 
items above m. Then the total number of sequences N contained in a 
transaction of length m is: 

15 N = Y ml =2- -I 
t( Mm -01 

A transaction of length 10 encompasses 1023 sequences, a transaction 
of length 20 encompasses 1048575 sequences of lengths from 1 to 10 
and, accordingly, 20. In spite of the fact that the numbers men- 
tioned describe the most unfavorable case, the number of possible 
20 sequences contained in a transaction may become very large. 

Each of those sequences must be tested for its minimum support con- 
dition, in other words the sum of transactions including them must 
be formed. It is evident that this process takes a lot of time, too. 
For this reason, the methods according to the invention described 
25 here make use of a solution trial for which no superfluous tests are 
needed . 
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Two variants of extracting large sequences will be described below. 
Both utilize a common record of basic concepts, but they differ in 
the summing of the support values of the sequences . 

The methods belong to the category of iterative procedures. In each 
5 step of the procedures all large sequences of a given length are de- 
fined. Operation of the procedure is continued until all large se- 
quences of maximum length have been found, in other words until no 
further large sequences are discovered in the current operating 
step. Another criterion for terminating the procedure may be the 
10 reaching of a maximum length of the sequences which were predeter- 
mined by the user. 

With both variants of the method according to the invention the 
large sequences of length k are used for constructing the set of new 
potential large sequences of length k+1. A sequence is called a can- 
15 didate if it was generated from large sequences of a length reduced 
by 1 and if, possibly, it likewise is a large sequence. In this man- 
ner the set of candidates having length k presents the set Ck. Obvi- 
ously, the following is true: Ck d Lk. 

1. Method of generating the candidate set. 

20 In both methods, the same principle of generating candidates is ap- 
plied. The principle differs slightly from the one of generating 
candidates in the preceding IBM solution trial. The function for 
generating the candidates uses all large k- sequences - Lk as the in- 
put set. The result it offers is a super set of the sets of all 

25 large (k+1) sequences - Ck+1. The method of generating the candidate 
set may be written as stated below, making use of an SQL-like syn- 
tax : 

INSERT INTO Ck 

SELECT p . item! , p . item 2/ . . . , p . item k , q. item k 
3 0 FROM p,q 

WHERE p.item 2 = q.itemx, p.item 3 = q.item 2 ,... p.item k = q.item k _!. 
The mode of generating the candidates may be illustrated as follows. 
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Assuming the large sequences of length 4 listed below were found in 
a step of the procedure : 

1. 13 2 6 

2. 14 12 
5 3 . 2 13 2 

4. 2 2 2 2 

5. 3 12 1 

6. 3 2 6 2 

7. 4 12 1. 



10 Checking all possible pairs of large 4-sequences, beginning with the 
first one and including also all those consisting of the same se- 
quence, the following candidate set is obtained: 

1 3 2 6 2 - result of the union of 1 and 6 

1 4 1 2 1 - result of the union of 2 and 7 
15 2 1 3 2 6 - result of the union of 3 and 1 

2 2 2 2 2 - result of the union of 4 and 4 



Sequences 5., 6., and 7. did not provide a single pair in which they 
would have been the first of the "parents". Sequence 5. did not take 
part in the generation of candidates at all. Sequence 4. formed a 
20 union with itself. 

The result of the procedure of this method may bring forth a situa- 
tion where not a single candidate sequence is generated by this 
method. This means that it is impossible to find but a single se- 
quence of the next level, the k+1 level. Consequently, the method 
2 5 ends with this step. 



In the example described above, all possible pairs of large se- 
quences of the previous level were drawn upon for constructing the 
candidate set. When the method works on real data, there is great 
likelihood of finding, in a particular step, a set of all large se- 
30 quences which may consist of thousands or tenthousands of sequences. 
The process of completely reviewing all pairs possesses a square 
complexity. On real data, therefore, millions or hundreds of mil- 
lions of operations would have to be carried out to compare se- 
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quences. The process of generating candidates thus might involve 
some serious time expenditure . 

For this reason, a data structure was elaborated which permits to 
reduce the complexity of reviewing the pairs of large sequences. Ac- 
5 cording to this concept, the first and the last large (k+1) sequence 
must be stored for each large k- sequence, beginning with the k- 
sequence under review. Of course, that requires sorting of the rec- 
ord of k-sequences from the small k-sequences to the large se- 
quences. The k-sequence A is defined as being smaller than the k- 
10 sequence B if the first different item is smaller in sequence A than 
in sequence B . 

Thus, we possess in a step of the method Lk - the set of the large 
k-sequences of the preceding step, Ck+l - the set of the candidates. 
For each k-sequence from Lk, moreover, the number of the second 

15 "parent" which generated this sequence is memorized. Based on this 

number, the spectrum of sequences from Lk with which each k-sequence 
may be united can be defined for each k-sequence. This data struc- 
ture is employed in both variants of the method specified. A dynamic 
array having the dimension |Lk-l|x2 is used for memorizing the num- 

20 bers required for the sequences from Lk-1. 

In the k th step, the set of large sequences Lk is available with each 
of which the number of the sequence from Lk-1 is connected that 
forms the second "parent". As a result of the work the set Lk+1 is 
obtained from Ck+l in the k th step, and for the sequences of this set 
25 the second parent 1 s numbers are memorized, and a new structure is 
formed of the numbers of the sequences from Lk. 

In the example described above, the sequence <2 1 3 2> was formed in 
the preceding step from the sequences <2 1 3> and <1 3 2>. Assuming 
sequence <1 3 2> had had its place at number 3. of the list of se- 
30 quences L3 , then the numbers 1 and 1 must be memorized in the struc- 
ture described for the sequence of number 3 . - in accordance with 
the first and last sequences of L4 which begin by <1 3 2>. If the 
new sequence <2 1 3 2 6> proved to be large the number of its second 
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parent is memorized - 1, for sequence <2 1 3 2> it is number 3 - the 
number of the first newly obtained 5 -sequence. 

If a descendant does not exist for a sequence from Lk-1 this fact is 
memorized in the structure of the numbers by way of an invalid num- 
5 ber - for example 1 . 

2 . The fi rs t va ri an t 

The process of operation of the first method may be subdivided into 
a plurality of stages: 

(i) search for all large 1-sequences - the various items of E - LI. 

10 (ii) search for all large 2-sequences - L2 on the basis of LI. For 

each large sequence found, the list of transaction numbers con- 
taining the same is memorized at the same time. 

(iii) search for the large k-sequences on the basis of Lk-1. The 
third stage is repeated until Lk = 0 has been obtained. 

15 The first variant for which a flowchart is shown diagrammatical ly in 
fig. 3 may be represented as follows in pseudo code: 

LI = {large 1-sequences}; 

C2 = candidate-gen (LI) ; // 2 candidates 

forall transactions t e D do begin 

Ct = subset (C2 , t) ; // candidates contained in t 
forall candidates c e Ct do 
c.count++; 

end 

L2 = { c G C2 | c . count > minsupp}; 
for (k=3; Lk-1 * 0; k++) do begin 
Ck = candidate-gen (Lk-1) ; 
forall candidates c e Ck do begin 

Tc = subset (c,D); // transactions including c 

c . support = | Tc | ; 

end 

Lk = {c g Ck | c. count > minsupp}; 

end 

answer = ULk; 

In the first variant of the method, two solution trials are combined 
35 for counting the support values of the candidate sequences. Sequen- 
tial transit through the set of input transactions is the method em- 
ployed to find set L2 . For each transaction, the candidates con- 
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tained in it are defined, and for each candidate the counter of the 
support value is incremented by one. 

In the first variant of the method the same solution trial was se- 
lected for this stage and for the next one: for each candidate, the 
5 list of transactions is determined which might contain the candi- 
date. The list of transactions results as the cut set across the 
memorized transaction lists of the parents of the candidate under 
investigation. Evidently, the candidate sequence can be included 
only in those transactions in which both parents of the particular 

10 candidate are memorized. The list of transactions of the candidate 
includes the numbers of the transactions and, making use of the cut 
set formation, only those numbers are added which are included in 
the lists of transactions of both its parents. The list thus ob- 
tained permits the number of transactions which must be tested for 

15 the presence of a certain candidate to be reduced substantially, es- 
pecially so in the final steps of the procedure. 

However, transit through the whole set of candidates is a precondi- 
tion for the statement of the transaction lists. In the second stage 
of the method, when counting set L2 , nothing but the items of set LI 

2 0 are known. Any pair of large 1- sequences forms a candidate of length 
2. During operation of the method with real data, the power of set 
LI may reach several tens of thousands of 1- sequences. The number of 
candidates of length 2 then will be a few hundred million. A com- 
plete review of all the possible candidates would require an unrea- 

25 sonable amount of time. In this case it makes sense to select the 

principle which was used fully in the second variant of the method. 

According to the basic idea of the second variant of the method, a 
counter of the support value is introduced for each candidate. That 
is followed by the sequential transit through the entry set of the 

30 transactions. For each transaction, the candidates it includes are 
defined, and their counters of the supports are incremented by one. 
In the second variant of the method, a more complex scheme is used 
for defining the candidates which are contained in a particular 
transaction, but a simpler method may be resorted to for defining 

35 set L2 . Two transits through the transactions, one embedded in the 
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other, are required for defining the numbers of all candidates. In 
the outer cycle, the large items contained in the transaction are 
selected one after the other. The inner cycle begins with the item 
which succeeds the item chosen in the outer cycle. Each selected 
5 pair of large items of set E represents a length-2 candidate and, 
therefore, the corresponding counter of the support value of the 
candidate must be incremented. The number of the counter is calcu- 
lated starting from the indices of the selected items in the list of 
large items and the total number of large items found. Let a and b - 
10 the respective selected first and second items of a candidate and N 
- be the number of 1- sequences found in the preceding stage of the 
method - the large items from LI. Then the number of the respective 
candidate is obtained according to the following formula: n c = Na+b 

If the repeated incrementing of the counter of the support of a spe- 
15 cific candidate is to be excluded, in dealing with one and the same 
transaction, a means of marking the fact that incrementation of the 
counter took place in a particular transaction must be provided. The 
simplest way of doing that is to store, for each candidate, not only 
its counter of the support but, in addition, also the number of the 
20 last transaction which caused the counter of the candidate of inter- 
est to be incremented. In view of the fact that the transactions 
from the entry set are dealt with successively, the content of the 
field of the number of the last transaction gives an indication 
whether the counter was incremented since the beginning of dealing 
25 with the concrete transaction under review. 

The manner of proceeding as described above for determining the 2- 
sequences L2 has the advantage that the calculations involved are 
relatively simple because only those candidates are processed which 
indeed are contained in the transactions input. Yet this method also 

3 0 suffers from a serious disadvantage. For each candidate, two values 
related to it must be stored: the counter of the support value and 
the number of the last transaction which incremented the counter. 
Using a 32 bit word for each field which, theoretically, would allow 
processing a maximum of 2147483647 transactions, requires 8 bytes 

35 per candidate. At the stage of defining set L2 there may be hundreds 
of millions of different candidates. This stage in the operation of 
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the method consequently requires some hundred million bytes of RAMs 
and that, indeed, presents a serious limitation. It is the square- 
law dependence of the memory needed on the number of large 1- 
sequences found in the preceding stage that causes this serious 
5 limitation. 

To overcome this limitation, a scheme of multiple transit of the 
processing of the transaction set in the course of constructing set 
L2 was realized in the final version of the first method. During a 
full transit through the input set of transactions, only those pairs 

10 are dealt with whose first item lies within a certain range of val- 
ues. In this manner the storage space required for the second stage 
of the procedure can be restricted, in consideration of the storing 
capacity available in the computer. Of course, greater memory re- 
strictions in turn will demand more transits and, accordingly, the 

15 procedure will become slower in the second stage. The method de- 
scribed of defining the 2 -sequences L2 , therefore, is a compromise 
between the necessary storage space and the processing speed. This 
fact is confirmed by the experimental execution time behavior of the 
method. 

2 0 2.1 Further implementation details of the first variant 

In the first stage of operation of the method all items of set E 
must be found that occur in the input transactions no less than a 
predetermined number of times. As the numbers and frequencies of the 
various items from E are not known initially a method must be pro- 
25 vided of storing both the actual item and the number of transactions 
in which it is contained. When practicing both variants of the 
method, a transit through all the input transactions takes place. A 
standard class (e.g. from Java) - the hash table, is drawn upon for 
storing the items and their counters. This class permits storing of 

3 0 the pair <key, value>, and for quick search of the values it uses 

the mechanism of the hash table in respect of the key values. In im- 
plementing the method, the key chosen is an object of the integer 
class (wrapper class for integral values) (e.g. from Java) which is 
initiated with the value of the selected item, and the value chosen 
35 is another object of the integer class which is initiated with the 
value of its counter. When selecting another item of a transaction, 
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access is taken to the object of the hash table class to obtain the 
value through the key which is identical with the selected item. If 
such a value was found in the hash table, another rewrite, incre- 
mented by one, is caused. If no such value was found for the key, 
5 the pair to be registered in the hash table will be the pair of 

which the value it contains is the initial value of the counter, in 
consideration of the item already selected - 1. 

Repeated incrementing of the counter of a transaction is avoided, in 
implementing the method, by choosing a different class (e.g. from 

10 Java) - vector, in which all those items are stored that were al- 
ready processed by a transaction. Before searching for the value in 
the hash table, the method attempts to find the item in the instance 
of the vector class. If such an item was found, it means that it was 
processed before in this transaction, and the method will proceed to 

15 the next item of the transaction. Of course, the vector of values is 
purged when the method proceeds to the next transaction. Having gone 
through the transaction set, only those items are selected whose 
counter values are not smaller than the minimum value. The large 
items found are stored in the array and sorted so that, in the fur- 

2 0 ther course of proceedings, binary search can be applied to the 

items and be mapped to the set of integral positive numbers 0,..., 
N-l, with N being the number of large items found. The large items 
are used to form set LI of the large 1-sequences. 

In implementing the method, the TransactionList class is used for 
25 storing the list of the numbers of the transactions. It permits 

storing the numbers of the transactions in an array, adding a number 
to the end of the list, provided the numbers are added in rising or- 
der. This is an indispensable condition for the correct operation of 
the method of the TransactionList class which forms the cut set of 
30 both transaction lists. The initial lists of the transactions are 
formed in the course of the sequential transit through the set of 
input transaction during the stage of the construction of L2 , at the 
same time, establishing, in a natural way, the conditions of the 
sorting order. Further, the new lists are created while the cut set 
35 operation is executed. The lists of the numbers are stored in an ar- 
ray. However, since the length of the array is defined during the 
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stage of dynamic storage allocation, additional fields of the' array- 
must be made available, as required, by increasing the length. An 
array having an initial size is made up and gradually filled during 
the generation of an instance of the Tra.nsactionL±st class. When the 
5 maximum of numbers is reached, the memory is made available once 
more. The maximum storage capacity of the array is increased ten- 
fold, for instance, a new array having the same maximum length is 
made available and the contents of the previous array are copied 
into the same. The old array may be marked as superfluous (e.g. for 
10 the virtual machine in Java) . 

During the third stage of operation of the method, all the large It- 
sequences memorized during the preceding step are reviewed. The num- 
bers of the first and last large k-sequences, with which the se- 
quence found can be united, are found by way of the stored number of 

15 the second parent of the sequence, making use of the data structure 
described above. Moreover, the intersection forming operation is 
carried out across the lists of transactions of both sequences. If 
the length of the resulting list is smaller than the required mini- 
mum support value the candidate under review is discarded immedi- 

20 ately even without an operation of a direct candidate and counting 
of the number of transactions containing the same. Otherwise, the 
sequence of the items of the candidate itself is generated and each 
transaction of the list obtained from the formation of the intersec- 
tion is checked as to the content of candidate sequences it in- 

25 eludes. If a corresponding sequence was found in a transaction the 
number of the transaction is memorized. In this manner, at the end 
of processing a candidate, there will be a list of transactions 
which include the candidate. This candidate will be stored together 
with the number of its second parent if the number of such transac- 

3 0 tions is not smaller than the minimum number. 

The actions described above are repeated for each candidate. If, ul- 
timately, not a single large sequence was found the operation of the 
third stage of the method is terminated and the results are output 
via the interface. There may be two reasons why not a single se- 
35 quence was found in the course of one step. In set Lk, there may not 
be a sequence which might form a candidate together with another se- 
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quence, i.e. not a single candidate exists in a step. Another reason 
may be the variant where, ultimately, not a single candidate pres- 
ents a large sequence. 

Summarizing, the first variant of the method proves to be quick on 
5 large amounts of data, and its storage space requirement is small. 
As far as storage space and computing time regarding the use of 
transaction lists are concerned, empirical calculations and experi- 
mental results show that, based on real data, they tend to be 
greatly reduced because, as the sequences being processed become 

10 longer they will be contained in a progressively smaller number of 

transactions, as a result of which not only the lists become shorter 
but also the amount of time needed to process them. Consequently, it 
is a requirement for operation of the first variant of the method 
that the initial set of transactions be entered in the form of a 

15 list of sequences of integral numbers, the minimum support value be 
input as a floating value, and the storage space available for the 
second stage of the method be input, too. 

3. Second variant 

The second variant of the method, of which a flowchart is il- 
20 lustrated diagrammatically in fig. 4, was elaborated and implemented 
for purposes of comparison with the first variant of the method as 
regards speed and storage space. The second variant can be repre- 
sented as follows in pseudo code: 

LI = {large 1-sequences} ; 
25 for (k=2; Lk-2 * 0; k++) do begin 

Ck = candidate-gen (Lk-1) ; // new candidates 
forall transactions t e D do begin 
Ct = subset (Ck, t) ; 
forall candidates c e Ct do 
3 0 c.count++; 
end 

Lk = {c e Ck | c . count > minsup} 

end 

answer = U Lk; 

35 The method illustrated is very general and does not implement the 

process of selecting the candidates that are included in a particu- 
lar transaction. In the simplest case this may be reviewing all can- 
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didates with the aim of selecting those which are contained in the 
sequence of the transaction. Another variant provides for reviewing 
all sequences of a given length and selecting those from among them 
which represent candidates. It is evident that both methods are dis- 
5 advantageous for being inefficient. Therefore, a different method is 
described for implementing the second variant. 

The second variant makes use of quite a few of the same ideas as the 
first one. In particular, the same principle is applied without much 
alteration for calculating set LI. The entire description given 

10 above of the first stage of operation of the first variant of the 

method applies to the second variant as well. As already mentioned, 
for adding the support of the candidates, the second variant of the 
method makes use of the concept which, in the first variant, was ap- 
plied only in the second stage for generating the set of large 2- 

15 sequences, L2 . 

3.1 Further implementation details of the second variant 

A specific data structure is used with the second variant of the 
method so as to have the possibility of defining the list of candi- 
dates included in it, for every transaction. From the second stage 

20 of the method on, each transaction is presented as a list of the 
numbers of the k- sequences found in the preceding step of the 
method. Reviewing the pairs of these k- sequences and uniting them 
according to the method described above of generating candidates, 
all the candidates of length k+1 can be obtained that are included 

25 in a particular transaction. Yet the list of the large k-sequences 
is organized as a two-dimensional array of values so as to separate 
the candidates. The resulting data structure will be illustrated in 
the example below. 

Let us assume the entry set of transactions includes the following 
3 0 transaction: 

<3 1 3 2 1>. 

Furthermore, let it be assumed that in the second stage of operation 
of the method it was discovered that the sequences <3 1>, <3 2>, <1 
2>, and <1 1> contained in that transaction are large, having num- 
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bers 5, 7, 3, and 1, respectively. In the second stage of operation 
of the method the following data structure was generated, which cor- 
responds to the given transaction: 

1. 5 7 
5 2. 3 1 
3. 7 5 
4 . 

The number of lines of this structure equals the number of items in 
the transaction during the stage of construction of set L2 . In the 

10 further stages this set equals the number of lines in the preceding 
structure for this transaction. Each line contains the numbers of 
the large sequences which begin with this item or with this line in 
the structure that was generated in the preceding step. In each 
step, the pairs of numbers of the large sequences of the previous 

15 level are reviewed, and the method searches all pairs of numbers 

which might be united. The test for possible union is carried out on 
the basis of the same principle as with the first variant of the 
method. 

A structure of this kind is formed for each transaction and is up- 
20 dated in each step of the method. The first structure is generated 
in the second stage of the method, and that is the only difference 
. compared to the corresponding stage of the first variant of the 
method. In one step of the method, all transactions of the entry set 
are processed successively, utilizing the structure just described. 
25 Step by step each item of each line is selected, and following that 
the items of each subsequent line are searched. If the pair thus se- 
lected may become a candidate the counter of its support is incre- 
mented by one. To avoid multiple incrementing of the counter during 
the processing of a transaction, the idea of the first variant of 
3 0 the method may be resorted to in that the number of the last trans- 
action incremented is stored for each candidate. 

This illustrates that actually it is not necessary, with the second 
variant of the method, to generate candidate sequences during the 
execution time because, contrary to the first method, that is not 
3 5 needed for adding up the support values. The large k- sequences found 
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during the k* step are stored in the form of the pairs of their par- 
ents. That helps save storage space because in practice the large k- 
sequences may come about at the end of the operation proper of the 
method during the transit from set LI to set L2 so that they will 
5 not unnecessarily occupy storage space while the main cycle of the 
method is underway. 

The process of filling the required structure may turn out to be 
difficult because, while the numbers of the candidates are known 
during the processing of the transaction, those of the large se- 

10 quences are not as they are defined only after all transactions have 
been processed. During the processing, therefore, the numbers of the 
candidates contained in them are entered into the renewed structure. 
When all transactions of the entry set have been processed the num- 
bers included in the structure must be corrected to allow for the 

15 candidates which did not fulfill the support condition. The part of 
the method during which the numbers are corrected may be presented 
as follows: 

m = 0; // accumulator of the correction 

forall cg Ck do begin // for each candidate 

20 if c . count >=minsup then c. correction = -m-1 

else m++; 

end 

Having accomplished this fragment of the method, the value of the 
correction is known for each candidate and must be deducted from the 

25 number of the candidate so as to provide the number of the large se- 
quence. In fact, to get the number of the sequence from the number 
of the candidate the number of candidates that did not make the test 
must be deducted whose numbers are smaller than the number of the 
candidate in question. The final stage of the renewal of the struc- 

3 0 ture of the transactions is the transformation of the numbers of the 
candidates into the numbers of the large sequences simultaneously 
with the removal of the numbers of the non- large candidates and the 
sorting . 

The sorting serves to expedite the search for paired sequences dur- 
35 ing the processing of the transaction structures, in other words 
those sequences with which the selected sequence may be united. 
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Without sorting of the lines of the structure of the transactions 
the search for the second parent would involve a full transit of the 
subsequent lines, including a test of the condition for union. Sort- 
ing the values of the numbers of the large sequences introduces a 
5 rising order, thus providing the opportunity of most rapidly finding 
a value in the line, by binary search, starting with which the num- 
bers of the parent sequences are memorized. Moreover, an orderly 
transit through the line is carried on until a number of a sequence 
is larger than the maximum parent number for the selected first par- 

10 ent . Experimental data have demonstrated that the sorting intro- 
duced, which is not absolutely required for the operation of the 
method, accelerates operations in those cases in which the structure 
related to a particular transaction contains some very long succes- 
sive lines. With the first variant, without sorting, a clear drop in 

15 efficiency could be observed in some parts of the transaction set, 

which is why the overall time of the operation of the method is much 
prolonged. Having applied the sorting, the method operated many 
times faster on such data, depending on the particular entry trans- 
action sets. 

20 During the processing of the transaction structures, the numbers of 
the large sequences found in the preceding step of the method and 
included in the transaction currently being processed are selected 
successively. For each number selected it becomes a task to define 
the numbers of the first and last parent with which the sequence 

25 having the selected number may be united. Besides, the number must 
be known for every candidate in order to be able to increment the 
counter. This problem is solved partly as was done with the first 
variant of the method. Yet the implementation of the second variant 
makes use of a slightly modified idea in consideration of the re- 

30 quirement that the number of the candidate must be known. In the 

case of the first variant, the number of the candidate is known be- 
cause, for all practical purposes, in the main cycle a transit 
through the candidate set takes place and a specific structure is 
renewed in each step for quickly determining the first and last num- 

35 bers of possible parents. With the second variant, a modified struc- 
ture is applied in consideration of the need for storing the numbers 
of the corresponding candidates. In each entry of this structure, 
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not only the numbers of possible parents are stored but also the 
number of the first candidate that can be generated. Via the number 
of the second parent of a large sequence, thus the numbers of the 
parents can be determined with whom the sequence under review may be 
5 united, and also the numbers of the corresponding candidates. 

With the second variant of the method as, by the way, also with the 
second stage of the first method, storage space must be allocated to 
the values of the counter of the support and the array of the num- 
bers of the transaction which was the last to increment the counter. 

10 4. Description of a program interface 

The program interface is considered in the form of an example of ap- 
plying the method in a Java program. 

The TransactionSetSeq class is used for storing the record of the 
sequential entry transformations. An instance of the class is real- 
15 ized by the following instruction: 

TransactionSetSeq tss = new TransactionSetSeq( ) ; , 

Now we add all transactions of the entry record: 
for (int i-0;i< <number of transactions >; i++) { 

Each sequential transaction is represented as an instance of the 
20 ItemSetSeq class: 

ItemSetSeq iss = new ItemSetSeq( ) ; 

The items of the transactions are integral numbers - the following 
method of the ItemSetSeq class serves to add a new item to the 
transaction: 

25 void addltem(int item); 

We add all the items of the current transaction: 

for (int j=0;j< < number of items of the current transaction>; 

iss. addlt em ( <number of the item >); 
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The following method of the TransactionSetSeq class is used for add- 
ing a transaction to the transaction record: 

void addTransaction(ItemSetSeq iss) ; 

tss . addTransaction ( iss ) ; 

} 

An instance of the Sequential or Sequential2 class must be generated 
for calculating the sequences: 
Sequential seq = new Sequential () ; 
Sequential2 seq2 = new Sequential 2 () p 

The following method contained in the Sequential and Sequential2 
classes must be called to start the method: 

SequentialResult SequentialAlg (TransactionSetSeq tss, double 

minsupp) ; 

where 

tss - entry set of the transactions, 
minsupp - minimum support value. 
SequentialResult seqResult = seq. Sequent ialAlg( tss , minsupp ) ; 

or 

SequentialResult seqResult = seq2 . SequentialAlgi tss, minsupp ) ; 

The result of operation of the method is stored in the object of the 
SequentialResult class. The SequentialResult class contains the fol- 
lowing method for accessing the sequences found: 

ItemSetSeqList getLargeSequences () ; 

ItemSetSeqList issList = seqResult . getLargeSequences () ; 

The ItemSetSeqList class contains the methods: 

int getSize () ; - supplying the number of sequences, 

ItemSetSeq getltemSetAt (int index); - supplying the sequence of 

the number index. 

for (int < issList . getSize( ) ; { 
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ItemSetSeq iss = issLis t . get ItemSetAt ( i ) ; 

The ItemSetSeq class contains the following method for accessing the 
sequence : 

int get ItemAt (int index); 

5 The following method supplies the length of the sequences: 
int getSlze () ; 

for (int j=0;j<iss.getSize();j++) 
int item = iss . getItemAt( j ) ; 



10 The following method of the ItemSetSeq class supplies the value of 
the counter for the support : 

int getSupportCount ( ) ; 

The actual support value support for each sequence is the quotient 
of the value of the support counter and of the number of all trans - 
15 actions. 

5, Example: Clickstream analysis 

Referring to figs. 1 and 2, the application of the method described 
above will now be explained by way of example with reference to a 
clickstream analysis of Web servers. 

20 The user needs a Web browser 10 to call a Web site via the internet, 
for example the Netscape Navigator, by which he connects to a Web 
server 20, for example the Apache Web server. Information about HTML 
pages of a Web site that were fetched is stored by Web servers in 
data bases 30 or log files 40. The information concerning those HTML 

25 pages is stored in a table. The columns correspond to the informa- 
tion about the page that was fetched, e.g. date and time, URL of the 
HTML page fetched, referer URL, type of Web browser. The lines cor- 
respond to the fetched HTML pages themselves. Various mechanisms, 
not described in any greater detail here, make it possible to iden- 

30 tify Web sessions and allocate them to each fetched page. A Web ses- 
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sion is a sequence of HTML pages which a user has fetched succes- 
sively from the Web site. 

It is the aim of the clickstream analysis to find out typical paths 
along which users of a Web site mainly move. For instance, it may 
happen with an E-commerce shop that many users enter the shop 
through the main page, go into a certain product category, look at a 
certain product in a detail view, and thereafter leave the shop. The 
conclusion may be drawn that the product looked at did not satisfy 
the demand, and that consequently its presentation absolutely needs 
to be improved. Where users choose cyclical paths, often the con- 
clusion may be drawn that for them the shop is not structured 
clearly, and so on. Now, having provided a data access module 50, a 
data mining application 60 implemented via a program and performing 
the actual clickstream analysis takes access to the data of the HTML 
pages fetched and to be found either in the data base 3 0 or in the 
log files 40. The data access module 50 executes various transforma- 
tions, like the resolution of IP addresses, recognition of date for- 
mats, and the extraction described above of Web sessions. 

The mining application 60 calculates the most frequent paths fol- 
lowed by users through the Web site. Finding the typical paths in 
Web sites is a task for sequential analysis. In this case E = {el, 
e2, em} is the set of all HTML pages of a Web site. Each trans- 

action di corresponds to a Web session, the items of which form a 
sequence <s0, si, sk> of HTML pages. The total number of trans- 

actions D corresponds to the total of Web sessions of the Web 
server. The clickstream transactions for a simple example are shown 
at 80 (after mappings 90 and 100 into the range of integers) and 110, 
respectively. It is the task of the clickstream analysis to find all 
the large sequences of HTML pages which provide the mining results 
70, with a given minimum support parameter s. In the example of the 
clickstream table 80, the large sequences found are shown at 120 or 
13 0, respectively, (after re-mapping) for a minimum support value of 
50 %. These are the typical users paths of the Web site whose analy- 
sis, as explained above, may be used for improving the structure of 
the Web site. In particular, the results may be incorporated di- 
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rectly in the Web server, for instance, by way of recommended HTML 
pages (recommender systems) . 

The method described of the invention is very well suited for calcu- 
lating large sequences, especially so because it can analyze large 
5 amounts of data. Log file tables of popular Web sites, in particu- 
lar, often comprise millions of HTML pages fetched and, therefore, 
are extremely demanding as regards sequential analysis methods. Con- 
sequently, evaluating this information by means of sequential analy- 
sis usually was very intensive in terms of computer time and thus 
10 limited to special cases (sequences of length 2, only a few Web ses- 
sions, etc.). These restrictions are overcome by the method de- 
scribed here for almost any clickstream data occurring on present 
day Web servers . 

The features of the invention disclosed in the specification above, 
15 in the claims and drawing may be essential to im-plementing the in- 
vention in its various embodiments, both individually and in any 
combination. 



IS CLAIMED IS: 



A method of determining a set of large sequences from an elec- 
tronic data base comprising a set D = {dl,...,dn} of transac- 
tions di (l<i<n) in a computer system with an implemented query- 
module, each of the large sequences on the set D of transac- 
tions di having .a support value greater than or equal to a 
given support value S, each of the transactions di of the set D 
being a sequence of items of a record E = {el,..., em} of items 
ej (l<j<m) and the method comprising the following steps: 

a) determining a set LI of large sequences from the set D of 
transactions, the large sequences of set LI each comprising 
exactly one item of the record E, and an assigned support 
value S L1 on the sequence D of transactions each being 
greater than or equal to the given support value S; 

b) determining a set L2 of large sequences from the set D of 
transactions, the large sequences of set L2 each comprising 
exactly two items of the record E in a respective order R L2 , 
and an assigned support value S L2 on the set D of transac- 
tions each being greater than or equal to the given support 
value S, and nothing but sequences comprising one of the 
large sequences of set LI, as a partial sequence, being 
taken into account in determining set L2 ; 

c) determining a set Lk (k>2) of large sequences from the set D 
of transactions, the large sequences of set Lk each compris- 
ing exactly k items of record E in a respective order R LK , 
and an assigned support value S LK on the sequence D of 
transactions each being greater than or equal to the given 
support value S, and nothing but sequences comprising two of 
the large sequences of set Lk-1, as partly overlapping par- 
tial sequences, with the respective order R LK -i, being taken 
into account in determining set Lk; and 

d) repeating step c) for k = k+1 and terminating the repetition 
of step c) when a given termination condition is fulfilled. 

The method as claimed in claim 1, wherein the set D of transac- 
tions is searched for candidate sequences which comprise two of 



the large sequences of set LI or set Lk-1, respectively, as 
partly overlapping partial sequences, in determining set L2 in 
step b) and set Lk in step c) , respectively, and wherein an as- 
signed support value counter is registered for each candidate 
sequence found for the first time, and the assigned support 
value counter is incremented when the respective candidate se- 
quence is determined again in searching the set D of transac- 
tions . 

The method as claimed in claim 1, wherein: 

the set D of transactions is searched for candidate se- 
quences comprising one of the large sequences of set LI, as 
a partial sequence, when determining set L2 in step b) , and 
an assigned support value counter is registered for each 
candidate sequence found for the first time, and the as- 
signed support value counter is incremented when the respec- 
tive candidate sequence is determined again in searching the 
set D of transactions; and 

a candidate set of sequences is formed, when determining set 
Lk (k>2) in step c) , which set comprises all combinations in 
pairs of the sequences of set Lk-1, and of the set D of 
transactions those transactions are defined which comprise 
at least one sequence of the candidate set, and the support 
value is determined for those sequences of the candidate set 
for which a transaction was found that comprised this se- 
quence . 

The method as claimed in claim 2 or 3 , wherein a display value 
is generated and updated for each assigned support value coun- 
ter to indicate the transaction for which the assigned support 
value counter was last incremented. 

The method as claimed in claim 3 or 4 , wherein only those se- 
quences of the candidate set of sequences corresponding to all 
combinations in pairs of the sequences of set LI are taken into 
account of which the first item lies within a given range of 
values . 



A computer program product for determining a set of large se- 
quences from an electronic data base comprising a set D = 
{dl,...,dn} of transactions di (l<i<n) in a computer system 
with an implemented query module, each of the large sequences 
on the set D of transactions di having a support value greater 
than or equal to a given support value S, each of the transac- 
tions di of the set D being a sequence of items of a record E = 
(el, . . . ,em} of items ej (l<j<m) and the product comprising the 
following means: 

a) means recorded on an electronic storage medium for determin- 
ing a set Ll of large sequences from the set D of transac- 
tions, the large sequences of set Ll each comprising exactly 
one item of the record E, and an assigned support value S L1 
on the sequence D of transactions each being greater than or 
equal to the given support value S; 

b) means recorded on the electronic storage medium for deter- 
mining a set L2 of large sequences from the set D of trans- 
actions, the large sequences of set L2 each comprising ex- 
actly two items of the record E in a respective order R L2 , 
and an assigned support value S L2 on the set D of transac- 
tions each being greater than or equal to the given support 
value S, and nothing but sequences comprising one of the 
large sequences of set Ll, as a partial sequence, being 
taken into account in determining set L2 ; 

c) means recorded on the storage medium for determining a set 
Lk (k>2) of large sequences from the set D of transactions, 
the large sequences of set Lk each comprising exactly k 
items of record E in a respective order R LIC , and an assigned 
support value S LK on the sequence D of transactions each be- 
ing greater than or equal to the given support value S, and 
nothing but sequences comprising two of the large sequences 
of set Lk-1, as partly overlapping partial sequences, with 
the respective order R L k-i# being taken into account in de- 
termining set Lk; and 

d) means recorded on the electronic storage medium for repeat- 
ing step c) for k = k+1 and terminating the repetition of 
step c) when a given termination condition is fulfilled. 
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7. An integrated sequential analysis system, comprising: 

an electronic data base comprising a set D = {dl,...,dn} of 
transactions di (l<i<n) , each of the large sequences on the 
set D of transactions di having a support value greater than 
5 or equal to a given support value S, each of the transac- 

tions di of the set D being a sequence of items of a record 
E = {el, . . . ,em} of items ej (l<j<m) ; 

a query module comprising a query means coupled to the data 
base and a processing means for detecting query parameters 

10 and generating queries to the query means; 

means for determining a set LI of large sequences from the 
set D of transactions, the large sequences of set LI each 
comprising exactly one item of the record E, and an assigned 
support value S L1 on the sequence D of transactions each be- 

15 ing greater than or equal to the given support value S; 

means for determining a set L2 of large sequences from the 
set D of transactions, the large sequences of set L2 each 
comprising exactly two items of the record E in a respective 
order R L2 , and an assigned support value S L2 on the set D of 

20 transactions each being greater than or equal to the given 

support value S, and nothing but sequences comprising one of 
the large sequences of set LI, as a partial sequence, being 
taken into account in determining set L2 ; 

means for determining a set Lk (k>2) of large sequences from 
25 the set D of transactions, the large sequences of set Lk 

each comprising exactly k items of record E in a respective 
order R LK , and an assigned support value S LK on the sequence 
D of transactions each being greater than or equal to the 
given support value S, and nothing but sequences comprising 
3 0 two of the large sequences of set Lk-1, as partly overlap- 

ping partial sequences, with the respective order R LK -i/ be- 
ing taken into account in determining set Lk; and 
means for repeating step c) for k = k+1 and terminating the 
repetition of step c) when a given termination condition is 
35 fulfilled. 
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Abstract of the disclosure 

Method and apparatus for determining a set of large 
sequences from an electronic data base 

The instant invention relates to a method of and an apparatus for 
5 determining a set of large sequences from an electronic data base 
comprising a set D = {dl,...,dn} of transactions di (l<i<n) in a 
computer system with an implemented query module, each of the large 
sequences on the set D of transactions di having a support value 
greater than or equal to a given support value S, each of the trans- 

10 actions di of the set D being a sequence of items of a record E = 
{el,..., em} of items ej (l<j<m) . A set Lk (k>2) of large sequences 
is determined from the set D of transactions, the large sequences of 
set Lk each comprising exactly k items of record E in a respective 
order R LK , and an associated support value S LK on the sequence D of 

15 transactions each being greater than or equal to the given support 
value S, and nothing but sequences comprising two of the large se- 
quences of set Lk-1, as partly overlapping partial sequences, with 
the respective order R L k-i# being taken into account in determining 
set Lk. 
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Verfahren zur Extraktion von Sequenzen in grofien relationalen Tabellen 

Die Erfindung liegt auf dem Gebiet des „Data Mining". 
Stand der Technik 

Sequenzanalysen konnen dem Bereich des Data Mining zugeordnet werden und extrahieren 
5 Sequenzen von Elementen aus transaktionalen Daten. In dem Mafle, in dem transaktionale 
Daten zunehmend elektronisch erfasst werden, gewinnen Sequenzanalysen an Bedeutung. 

Ein typisches Beispiel fur Sequenzanalysen stellt die Clickstreamanalyse dar, in welcher die 
|U; typischen Nutzerpfade von Nutzern von Websites berechnet werden (siehe ebenfalls 
v Abschnitt 8). Weitere Beispiele von Sequenzanalysen sind die Textanalyse zur Extraktion 
10 typischer Wortfolgen in elektronisch gespeicherten Dokumenten sowie die Warenkorbanalyse 

(unter Berucksichtigung der Produktreihenfolge) im Handel zur Bestimmung typischer 

Produktkettenkaufe. Vielfaltige Anwendungen der Sequenzanalyse finden sich ferner in der 

Chemie sowie in der Genetik. 

Derzeit existieren eine Vielzahl spezialisierter Verfahren zur Sequenzanalyse, insbesondere 
15 im Bereich der Genetik, jedoch sind nur wenige universelle verfugbar. Im einfachsten Fall 
werden hierbei alle Varianten moglicher Sequenzen auf deren Haufigkeit untersucht, doch ist 
dies aus Griinden der Rechenkapazitat nur fur kleine Datenmengen moglich. Eine Alternative 
^ p sind Sequenzanalysealgorithmen, welche auf Suchbaumen basieren, beispielsweise der 
W' Algorithmus Capri der Firma Lumio (URL http://www.spss.com/PDFs/CP2SPCZ- 
20 1201.pdf). Doch ist auch deren Geschwindigkeit zur Analyse groBer Transaktionsdaten 
unzureichend. Eine schnellere Alternative stellen Verfahren dar, welche auf Ideen der 
klassischen Warenkorbanalyse beruhen und bereits fur die sequentielle Warenkorbanalyse 
genutzt wurden (Agrawal R., Srikant R. Mining Sequential Patterms. IBM Almaden Research 
Center; 650 Harry Road, San Jose). 
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Die Erfindung 

Die irn Rahmen der vorliegenden Anmeldung beschriebene Erfindung adaptiert die Ideen der 
klassischen Warenkorbanalyse konsequent fur die Sequenzanalyse und entwickelt sie fur das 
hier beschriebene Verfahren der schnellen Sequenzanalyse weiter. 

5 Die Erfindung wird im folgenden detailliert beschrieben. 

(1) Problemstellung 

Es sei / = {ijjz ...,i n ) ein Satz von Literalen, welche wir als Elemente bezeichnen werden. Wir 
bezeichnen als Sequenz <so,s Jt ...,s k > eine geordnete Liste von Elementen. Es sei D ein Satz 
^, von Transaktionen, wobei jede Transaktion T eine Sequenz von Elementen aus / ist, so daB 
10 ^ gilt: T c L Jeder Transaktion wird ein eindeutiger Identifikator zugeordnet, gekennzeichnet 
als TID. 

Die Sequenz <a 0 ,aj,...,a n > ist enthalten (Teilsequenz) in einer anderen Sequenz 
<b 0 ,b If wenn naturliche nichtnegative Zahlen ij < i 2 <-..< U existieren, so daB 

a } = b h ,a 2 = b ii9 ... 9 a n =b in . 

15 Wir definieren, dass eine Sequenz A eine Stutzung (support) s% auf der Menge der 
Transaktionen D besitzt, wenn sie in s% aller Transaktionen der Menge D enthalten ist. Wir 
bezeichnen eine Sequenz als grofi (large), wenn gilt, dass ihr Support nicht kleiner als ein 
vorgegebener Minimalwert ist. Eine Sequenz der Lange k bezeichnen wir als £-Sequenz. Im 
weiteren werden wir die Menge aller £-Sequenzen als L k bezeichnen. Die Menge aller k- 

20 Sequenzen, welche potenziell grofi sein konnen, werden wir als C k bezeichnen. 

Die Menge / kann eindeutig auf eine Untermenge naturlicher Zahlen abgebildet werden, das 
heiBt, jedem Element aus / kann ein eindeutiger naturlicher Identifikator zugeordnet werden. 

Unter Benutzung der oben eingefuhrten Begriffe kann die Aufgabe folgendermaBen 
formuliert werden. Auf Basis der vorgegebenen Mengen / und D sollen alle Sequenzen 
25 gefunden werden, deren Supportwert kleiner oder gleich einem vorgegebenen Minimalwert 
ist, das heiBt, wir suchen die Menge ^ - — 



L=[jL k 

k 



(2) Losung 

1. Grundkonzeption 

Der erste Ansatz zur Losung der vorliegenden Aufgabe besteht in der Auflistung aller 
5 moglichen Sequenzen aus Elementen der Menge / und dem Auszahlen der sie enthaltenden 
Transaktionen. Wir finden die Anzahl aller moglichen Sequenzen aus Elementen der Menge /, 
der Lange von 1 bis k. Die Machtigkeit der Menge / sein n. Die Anzahl der Sequenzen der 
Lange 1 ist gleich der Anzahl der Elemente der Menge /, also n. Die Anzahl aller moglichen 
Sequenzen der Lange m aus n Elementen ist n m . Dann ist die Anzahl aller Sequenzen N gleich 
der Summe der geometrischen Reihe zur Basis n: 

m=i n - 1 



Bereits fur n = 100 und £=10 erhalten wir TV = « 10 20 verschiedene Sequenzen. 

100-1 

Es ist klar, dass ein solcher Ansatz zur Losung der Aufgabe unakzeptabel ist. Fur reale Daten 
sind in alien Transaktionen der Menge D deutlich weniger Sequenzen enthalten. 

15 Weit logischer und schneller ist der Test aller Sequenzen, welche in jeder Transaktion 
^PL 1 enthalten sind und die Bestimmung des Supportwertes fur jede von ihnen. Angenommen, die 
5 Lange der Transaktion to ist gleich n. Dann enthalt die Transaktion to die Anzahl aller 
Sequenzen der Lange m, welche gleich der Menge der m Kombinationen der Elemente iiber n 
ist. Dann ist die gesamte Anzahl der Sequenzen N, welche in einer Transaktion der Lange n 
20 enthalten sind, gleich: 

Eine Transaktion der Lange 10 enthalt 1023 Sequenzen, eine Transaktion der Lange 20 
enthalt 1048575 Sequenzen der Langen jyon 1 bis 10 und entsprechend 20. Obwohl die 
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angefuhrten Zahlen den Worst Case beschreiben, kann die Anzahl der moglichen Sequenzen, 
welche in einer Transaktion enthalten sind, dennoch sehr groB werden. 

Jede dieser Sequenzen muB auf ihre minimale Supportbedingung getestet, das heiBt, es muB 
die Summe der sie enthaltenen Transaktionen gebildet werden. Es ist klar, dass dieser ProzeB 
5 ebenfalls sehr zeitintensiv ist. In den hier beschriebenen Verfahren wird deshalb ein Ansatz 
verwendet, welcher keine tiberflussigen Tests benotigt. 

Es werden zwei Variante der Extraktion groBer Sequenzen beschrieben. Beide nutzen einen 
gemeinsamen Satz grundlegender Ideen, aber unterscheiden sich in der Summation der 
Supportwerte der Sequenzen. 

Wo Die erste Idee geht auf einen Ansatz von IBM (Agrawal R., Strikant R. Fast Algorithms for 
* ^Mining Association Rules. IBM Almaden Research Center; 650 Harry Road, San Jose) 
zuriick. Jedoch wurde der darin beschriebene Ansatz zur effizienten Realisierung der 
klassischen Warenkorbanalyse genutzt, in der die Reihenfolge der Elemente in den 
Transaktionen unberucksichtigt bleibt. Einer der Grundansatze der vorliegenden 
15 Beschreibung ist die Adaption dieser Ideen, welche urspriinglich nicht zur Losung von 
Aufgaben unter Benicksichtigung der Reihenfolge der Elemente gedacht waren. 

Die hier beschriebenen Verfahren gehoren zur Klasse der Iterationsverfahren. In jedem 
Arbeitsschritt der Verfahren werden alle groBen Sequenzen einer gegebenen Lange bestimmt. 
Die Arbeit der Verfahren dauert solange, bis alle groBen Sequenzen maximaler Lange 
gefunden wurden, das heiBt, bis im vorliegenden Arbeitsschritt keine weiteren groBen 



Sequenzen gefunden werden. Ein anderes Kriterium zur Terminierung des Verfahrens kann 
das Erreichen einer maximalen Lange der Sequenzen sein, welche vom Nutzer vorgegeben 
worden ist. 

In beiden Varianten des Verfahrens werden die groBen Sequenzen der Lange k benutzt, urn 
25 die Menge neuer potentieller groBer Sequenzen der Lange £+1 zu konstruieren. Wir 
bezeichnen eine Sequenz als Kandidat, wenn diese aus groBen Sequenzen der urn Eins 
verminderten Lange generiert worden ist und moglicherweise ebenfalls eine groBe Sequenz 
darstellt. Auf diese Weise bildet die Menge der Kandidaten der Lange k die Menge C k . 
Offensichtlich gilt: Ck^Lk. 
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2. Die Methode zur Gerierung der Kandidatenmenge 

Beide Verfahren nutzen das gleiche Prinzip der Generierung von Kandidaten, welches sich 
etwas von dem der Generierung der Kandidaten im oben genannten Ansatz von IBM 
unterscheidet. Die Funktion zur Generierung der Kandidaten nutzt als Eingangsmenge alle 
5 groBen £-Sequenzen - L k . Sie liefert im Ergebnis eine Supermenge der Mengen aller grofien 
(jH-l)-S'equenzen - C k+I . Unter Nutzung einer SQL-artigen Syntax kann das Verfahren der 
Generierung der Kandidatenmenge folgendermaBen aufgeschrieben werden: 

INSERT INTO C k 

SELECT p.itemi 5 p.item 2 ,. . . 5 p.item k5 q.item k 
10 FROM p ? q 

| v WHERE p.item 2 = q.itemi, p.item 3 = q.item 2 , . . p.item k = q.item k .i 

Die Arbeitsweise der Generierung der Kandidaten kann anhand folgenden Beispiels 
veranschaulicht werden. 

Angenommen, in einem Schritt der Arbeit des Verfahrens sind folgende grofie Sequenzen der 
1 5 Lange 4 gefunden worden: 

1. 1 326 

2. 14 12 

3. 2 1 3 2 

4. 22 2 2 

5. 3 1 2 1 

6. 3 2 62 

7. 4 1 2 1 

Mittels Durchgehen aller moglichen Paare groBer 4-Sequenzen, beginnend mit dem ersten, 
und unter EinschluB auch aller aus der gleichen Sequenz bestehenden, erhalt man folgende 
25 Kandidatenmenge: 

1 . 1 3 2 6 2 - Ergebnis der Vereinigung von 1 und 6 

2. 1 4 1 2 1 - Ergebnis der Vereinigung von 2 und 7 

3. 2 1 3 2 6 - Ergebnis der Vereinigung von 3 und 1 
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4. 2 2 2 2 2 - Ergebnis der Vereinigung von 4 und 4 

Die Sequenzen 5, 6 und 7 lieferten kein einziges Paar, in welchem sie die ersten der „Eltern" 
waren; die Sequenz 5 war iiberhaupt nicht an der Generierung von Kandidaten beteiligt; die 
Sequenz 4 wurde mit sich selbst vereinigt. 

5 Im Ergebnis der Arbeit des Verfahrens kann eine Situation entstehen, in der mittels dieser 
Methode keine einzige Kandidaten- Sequenz generiert wird. Das bedeutet, dass es nicht 
moglich ist, auch nur eine einzige Sequenz des nachsten, &+l-ten, Levels zu finden. Folglich 
terminiert das Verfahren in diesem Schritt. 

Im dargelegten Beispiel wurden zur Konstruktion der Kandidatenmenge alle moglichen Paare 
)^ groBer Sequenzen des vorhergehenden Levels herangezogen. Wahrend der Arbeit des 
^ Verfahrens auf realen Daten kann es leicht passieren, in einem gewissen Schritt eine Menge 
aller groBen Sequenzen zu finden, welche aus Tausenden oder Zehntausenden Sequenzen 
besteht. Der ProzeB der vollstandigen Durchsicht aller Paare besitzt eine quadratische 
Komplexitat. Daher miisste man auf realen Daten Millionen oder Hunderte von Millionen 
15 Operationen zum Vergleich von Sequenzen ausfuhren. Das kann zu ernsthaftem Zeitaufwand 
fur den ProzeB der Kandidatengenerierung fuhren. 

Daher wurde eine Datenstruktur erarbeitet, welche es erlaubt, die Komplexitat der Durchsicht 
der Paare groBer Sequenzen zu verringern. GemaB dieser Idee ist es notwendig, ftir jede groBe 
A-Sequenz die erste und die letzte groBe (fc+l)-Sequenz zu speichern, welche mit der 
betrachteten A>Sequenz beginnen. Natiirlich ist es dafur notwendig, daB der Satz der k- 
Sequenzen von den kleinen Jt-Sequenzen zu den groBen Sequenzen sortiert wird. Die k- 
Sequenz A wird als kleiner als die fc-Sequenz B definiert, wenn das erste verschiedene 
Element in der Sequenz A kleiner als in der Sequenz B ist. 



Somit besitzen wir in einem Schritt des Verfahrens L k - die Menge der groBen fc-Sequenzen 
25 des vorangegangenen Schrittes, C k +i - die Menge der Kandidaten. Weiterhin wird fur jede k- 
Sequenz aus L k die Nummer des zweiten „Elternteils" gespeichert, welcher diese Sequenz 
generiert hat. Unter Benutzung dieser Nummer kann fur jede A>Sequenz gleich das Spektrum 
der Sequenzen aus L k bestimmt werden, mit welchen diese vereinigt werden kann. Diese 
Datenstruktur wird in beiden Varianten des beschriebenen Verfahrens genutzt. Zur 
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Speicherung der benotigten Nummern fur die Sequenzen aus L k -i wird ein dynamisches Array 
der Dimension |Z*./|x2 genutzt 

Im fc-ten Schritt liegt die Menge der groBen Sequenzen L k vor, mit jeder von denen die 
Nummer derjenigen Sequenz aus L k . } verbunden ist, welche den zweiten „Elternteir bildet. 
5 Im Ergebnis der Arbeit erhalt man im fc-ten Schritt aus C k+] die Menge fur deren 

Sequenzen die Nummer ihres zweiten Elternteils gespeichert werden, und es wird eine neue 
Struktur aus den Nummern der Sequenzen aus L k geformt. 

Im oben angeffihrten Beispiel wurde die Sequenz <2 1 3 2> im vorhergehenden Schritt aus 
den Sequenzen <2 1 3> und <1 3 2> geformt. Angenommen, die Sequenz <1 3 2> stand in der 
10 Nummer 3 der Liste der Sequenzen L 3 . Dann mussen in der beschriebenen Struktur fur die 
^ Sequenz der Nummer 3 die Nummern I und 1 gespeichert werden - entsprechend der ersten 
^ und letzten Sequenz aus L 4 , welche mit <1 3 2> beginnen. Fiir die neue Sequenz <2 1 3 2 6> 
wird, falls sie sich als groB erwiesen hat, die Nummer ihres zweiten Elternteils gespeichert - 
1, fur die Sequenz <2 1 3 2> die Nummer 3 - die Nummer der ersten neuen erhaltenen 5- 
1 5 Sequenz. 

Wenn fur eine Sequenz aus L k .j kein Nachfahre existiert, wird dieser Fakt in der Struktur der 
Nummern liber eine ungultige Nummer gespeichert - beispielsweise -1 . 

(3) Beschreibung der ersten Variante des Verfahrens 

Der ProzeB der Arbeit des ersten Verfahrens kann in mehrere Etappen aufgegliedert werden: 



2. Suche aller groBen 2-Sequenzen - L 2 auf Grundlage von L h Gleichzeitig wird fur jede 
gefundene groBe Sequenz die Liste der Transaktionsnummern, welche diese enthalten, 
abgespeichert. 

3. Suche der groBen fc-Sequenzen auf Grundlage von L k .j. Die Etappe 3 wird solange 




20 



1 . Suche aller groBen 1 -Sequenzen - der verschiedenen Elemente aus /- Lj. 



25 



wiederholt, bis L k = 0 erhalten wurde. 



Die Beschreibung des ersten Verfahrens im Pseudocode ist in Abbildung 1 dargestellt. 
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Lj = {large 1 -sequences}; 

C 2 = candidate-gen(Zy); // 2-Kandidaten 

forall transactions t e D do begin 

C t = subset(C 2 ,0; // Kandidaten, welche in / enthalten sind 
5 forall candidates c e C t do 

c.count++; 

end 

L 2 = {c e Oj c.count > minsupp}; 
for(£=3; L k . } * 0; k++) do begin 
10 Ca: = candidate-gen(Zjt-y); 

forall candidates c <= Ck do begin 
p T c = subset(c,Z)); // Transaktionen, welche c enthalten 

Nj c.support = |r c |; 

end 

15 Z,jt = {c e Ck I c.count > minsupp} ; 

end 

answer = UL*; 



Abbildung 1: Erste Variante des Verfahrens im Pseudocode. 

In der ersten Variante des Verfahrens werden zwei Ansatze zur Auszahlung der Supportwerte 
der Kandidaten-Sequenzen kombiniert. Zum Auffinden der Menge L 2 wird der sequentielle 
Durchgang durch die Menge der Eingangstransaktionen genutzt. Fur jede Transaktion werden 
die darin enthaltenen Kandidaten bestimmt, und fur jeden Kandidaten wird der Zahler des 
Supportwertes urn Eins erhoht. 

In der ersten Variante des Verfahrens wurde in dieser Etappe der gleiche Ansatz gewahlt wie 
25 in der nachsten Etappe: Fur jeden Kandidaten wird die Liste der Transaktionen bestimmt, 
welche diesen Kandidaten enthalten konnen. Die Liste der Transaktionen ergibt sich als 
Schnittrnenge uber den gespeicherten Transaktionslisten der Eltern des betrachteten 
Kandidaten. Offensichtlich kann die Kandidaten-Sequenz nur in den Transaktionen enthalten 
sein, in denen gleichzeitig beide Elternteile dieses Kandidaten gespeichert sind. Die Liste der 
30 Transaktionen des Kandidaten enthalt die Nummern der Transaktionen und unter Nutzung der 
Schnittmengenbildung werden dahiri-nur diejenigen Nummern hinzugefugt, welche in den 
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Listen der Transaktionen seiner beiden Elternteile enthalten sind. Die derart erhaltene Liste 
erlaubt eine substantielle Reduktion der Anzahl der Transaktionen, welche auf das 
Vorhandensein eines bestimmten Kandidaten getestet werden miissen, besonders in den 
letzten Schritten des Verfahrens. 

5 Jedoch setzt der Ansatz der Transaktionslisten den Durchlauf durch die Gesamtmenge der 
Kandidaten voraus. In der zweiten Etappe des Verfahrens, bei der Auszahlung der Menge L 2 , 
sind nur die Elemente der Menge Lj bekannt. Ein beliebiges Paar grofler 1-Sequenzen bildet 
einen Kandidaten der Lange 2. Wahrend der Arbeit des Verfahrens mit realen Daten kann die 
Machtigkeit der Menge L } einige zehntausend 1-Sequenzen erreichen. Dann betragt die 
10 Anzahl der Kandidaten der Lange 2 einige hundert Millionen. Eine vollstandige Durchsicht 
aller moglichen Kandidaten wurde einen unvertretbar hohen Zeitaufwand erfordern. Es ist 
sinnvoller, in diesem Fall den Ansatz zu wahlen, welcher vollstandig in der zweiten Variante 
1 des Verfahrens benutzt wurde. 

GemaB der grundlegenden Idee des zweiten Verfahrens, wird fur jeden Kandidaten ein Zahler 
15 seines Supportwertes eingefuhrt. Danach erfolgt der sequentielle Durchgang durch die 
Eingangsmenge der Transaktionen. Fur jede Transaktion werden die in ihr enthalten 
Kandidaten bestimmt und ihre Zahler des Supports werden urn Eins erhoht. In der zweiten 
Variante des Verfahrens wird ein komplexeres Schema zur Bestimmung der Kandidaten 
genutzt, welche in einer konkreten Transaktion enthalten sind, aber zur Bestimmung der 
20 Menge L 2 kann eine einfachere Methode verwendet werden. Zur Bestimmung der Nummern 
aller Kandidaten sind zwei Durchlaufe durch die Transaktionen notwendig, von denen der 
7'Nf Ni eine in den anderen eingebettet ist. Im auBeren Zyklus werden nacheinander die groflen 



\ Elemente gewahlt, welche in den Transaktionen enthalten sind; die nicht-groBen Elemente 
werden ausgelassen. Der innere Zyklus beginnt mit dem Element, welches auf das in dem 
25 auBeren Zyklus ausgewahlte Element folgt. Jedes ausgewahlte Paar groBer Elemente der 
Menge / stellt einen Kandidaten der Lange 2 dar und folglich ist es notwendig, den 
entsprechenden Zahler des Supportwertes des Kandidaten zu erhohen. Die Nummer des 
Zahlers wird ausgehend aus den Indexen der ausgewahlten Elemente in der Liste der grolien 
Elemente und der Gesamtzahl der gefundenen groBen Elemente berechnet. Seien a und b - 
30 die entsprechend gewahlten ersten und zweiten Elemente eines Kandidaten und N - die 
Anzahl der in der vorhergehenden Etappe des Verfahrens gefundenen 1-Sequenzen - der 
groBen Elemente aus Ly. Dann ergibt sich djc-Nummer des entsprechenden Kandidaten gemaB 
folgender Formel: n c = Na + b. 
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Zum Ausschlieflen der wiederholten Erhohung des Zahlers des Supports eines speziellen 
Kandidaten bei der Behandlung ein und derselben Transaktion ist es notwendig, eine Methode 
zur Markierung des Faktes der Erhohung des Zahlers einer konkreten Transaktion 
vorzusehen. Die einfachste Methode besteht darin, fur jeden Kandidaten aufier seinem Zahler 



des betrachteten Kandidaten inkrementiert hat. Da die Transaktionen aus der Eingangsmenge 
nacheinander behandelt werden, kann iiber den Inhalt des Feldes der Nummer der letzten 
Transaktion festgestellt werden, ob der Zahler seit Beginn der Behandlung der betrachteten 
konkreten Transaktion erhoht wurde. 

10 Der Vorteil der beschriebenen Vorgehensweise zur Bestimmung der 2-Sequenzen L 2 ist die 
relative Einfachheit der Berechnungen, da nur diejenigen Kandidaten behandelt werden, 
iP\ welche tatsachlich in den Eingangstransaktionen enthalten sind. Allerdings besitzt diese 
^ Methode auch einen gravierenden Nachteil. Fiir jeden Kandidaten miissen zwei mit ihm 
verbundene Werte gespeichert werden: der ZShler des Supportwertes und die Nummer der 

15 letzten, den Zahler inkrementierenden, Transaktion. Die Nutzung eines 32-bit Wertes fur 
jedes Feld, welches theoretisch die Bearbeitung von maximal 2147483647 Transaktionen 
erlaubt, erfordert 8 Byte pro Kandidat. In der Etappe der Bestimmung der Menge L 2 konnen 
Hunderte Millionen verschiedener Kandidaten existieren. Folglich benStigt diese Etappe der 
Arbeit des Verfahrens einige hundert Millionen Byte RAM-Speicher, was durchaus eine 

20 ernsthafte Einschrankung darstellt. Die quadratische Abhangigkeit des benotigten Speichers 
von der Anzahl der in der vorhergehenden Etappe gefundenen groBen 1-Sequenzen stellt eine 
ernsthafte Einschrankung dar. 



S Urn diese Beschrankung zu beseitigen, wurde in der endgiiltigen Form des ersten Verfahrens 
ein Schema des Mehrfachdurchlaufes der Bearbeitung der Transaktionsmenge im Verlauf der 
25 Konstruktion der Menge L 2 realisiert. Wahrend eines vollstandigen Durchlaufes durch die 
Eingangsmenge der Transaktionen werden nur diejenigen Paare behandelt, deren erstes 
Element sich in einem bestimmten Wertebereich befindet. Auf diese Weise kann der 
Speicherplatz, welcher fiir die zweite Etappe des Verfahrens benotigt wird, unter 
Berucksichtigung des im Rechner verftlgbaren Speicherplatzes beschrankt werden. 
30 Selbstverstandlich werden mit starkeren Speicherbeschrankungen umso mehr DurchlSufe 
erforderlich und das Verfahren wird in der zweiten Etappe entsprechend langsamer. Daher 
stellt die beschriebene Methode der Bestimmung der 2-Sequenzen L 2 einen KompromiB 



5 des Supports zusatzlich die Nummer der letzten Transaktion zu speichern, welche den Zahler 
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zwischen benotigtem Speicherplatz und Bearbeitungsgeschwindigkeit dar. Diese Tatsache 
wird auch durch das experimentelle Laufzeitverhalten des Verfahrens bestatigt. 

(4) Details der Realisierung der ersten Variante 

In der ersten Etappe der Arbeit des Verfahrens mussen alle Elemente der Menge / gefunden 
5 werden, welche in den Eingangstransaktionen nicht weniger als eine vorgegebene Anzahl 
auftauchen. Da die Nummern vmd Anzahlen der verschiedenen Elemente aus / anfanglich 
nicht bekannt sind, ist es notwendig, eine Methode zur Speicherung des eigentlichen 
Elementes sowie der Anzahl der Transaktionen, in der dieses enthalten ist, vorzusehen. In der 
Realisierung beider Varianten des Verfahrens erfolgt ein Durchlauf durch alle 

10 Eingangstransaktionen. Zur Speicherung der Elemente und ihrer Zahler wird eine 

P s Standardklasse (z.B. aus Java) herangezogen - die Hashtable. Diese Klasse erlaubt die 
^ Speicherung des Paares <Schliissel, Wert>, welche zur schnellen Suche der Werte den 
Mechanismus des Hash-Tabelle bezugliche der Schlusselwerte benutzt. In der Realisierung 
des Verfahrens wird als Schlussel ein Objekt der Klasse (z.B. aus Java) Integer (Wrapper- 

15 Klasse fur Integer- Werte) benutzt, welche mit dem Wert des gewahlten Elementes initialisiert 
wird, und als Wert - ein anderes Objekt der Klasse Integer, welches mit dem Wert seines 
Zahlers initialisiert wird. Bei der Auswahl eines weiteren Elementes einer Transaktion erfolgt 
ein Zugriff zum Objekt der Klasse Hashtable, urn den Wert iiber den Schlussel zu erhalten, 
welcher gleich dem gewahlten Element ist. Wenn ein solcher Wert in der Hash-Tabelle 

20 gefunden wurde, so wird es emeut, urn Eins erhoht, zuruckgeschrieben. Wenn kein solcher 
Wert fur den Schlussel gefunden wurde, so wird in die Hash-Tabelle das Paar eingetragen, 

^ welches als Wert den Anfangswert des Zahlers unter Beriicksichtigung des bereits gewahlten 
^ Elementes enthalt - 1. Zur Vermeidung wiederholter Inkrementierungen des Zahlers einer 
Transaktion wird in der Realisierung des Verfahrens eine andere Klasse benutzt (z.B. aus 

25 Java) - Vector, in der alle bereits von einer Transaktion bearbeiteten Elemente gespeichert 
werden. Bevor es den Wert in der Hash-Tabelle sucht, versucht das Verfahren das Element in 
der Instanz der Klasse Vector zu finden. Wenn ein solches Element gefunden wurde, so 
bedeutet dies, dass es bereits in dieser Transaktion bearbeitet wurde und es findet ein 
Ubergang zum nachsten Element der Transaktion start. Nattirlich wird der Vektor der Werte 

30 beim Ubergang des Verfahrens zur nachsten Transaktion gesaubert. Nach dem Durchgang 
durch die Transaktionsmenge werden nur jene Elemente selektiert, deren Zahlerwerte nicht 
kleiner als der Minimal wert sind. Die_.gefundenen grofien Elemente werden im Array 
abgespeichert und werden sortiert, urn im weiteren Verfahren die Binarsuche der Elemente 
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anwenden und auf die Folge der ganzen positiven Zahlen 0, N-l abbilden zu konnen, 
wobei N die Anzahl der geflindenen groBen Elemente ist. Aus den groBen Elementen wird die 
Menge L\ der groflen 1-Sequenzen formiert. 

Zur Speicherung der Liste der Nummern der Transaktionen wird in der Realisierung des 
5 Verfahrens die Klasse TransactionList benutzt. Sie erlaubt die Speicherung der Nummern der 
Transaktionen in einem Array, das Hinzufugen einer Nummer an das Ende der Liste, wobei 
vorausgesetzt wird, dass die Nummern in aufsteigender Reihenfolge hinzugefugt werden. 
Diese Voraussetzung ist unabdingbar fur die korrekte Arbeit der Methode der Klasse 
TransacionList, welche die Schnittmengenbildung beider Transaktionslisten realisiert. Die 

10 Anfangslisten der Transaktionen werden im Verlauf des sequentiellen Durchlaufes durch die 
Menge der Eingangstransaktionen in der Etappe der Konstruktion von L 2 gebildet, hierbei 
werden in natiirlicher Weise die Bedingungen der Sortierordnung sichergestellt. Im weiteren 
entstehen die neuen Listen wahrend der Ausfuhrung der Schnittmengenoperation. Die Listen 
der Nummern werden in einem Array gespeichert, aber da die Lange des Arrays in der Etappe 

15 der dynamischen Speicherallokation bestimmt werden, ist es notwendig, im erforderlichen 
MaBe zusatzliche Felder des Arrays bereitzustellen, indem seine Lange erhoht wird. Wahrend 
der Erzeugung einer Instanz der Klasse TransactionList wird ein Array mit einer 
AnfangsgroBe angelegt und schrittweise gefullt. Bei Erreichen der Maximalanzahl der 
Nummern wird der Speicher emeut bereitgestellt. Die maximale Speicherkapazitat des Arrays 

20 wird beispielsweise urn das Zehnfache erhoht, es wird ein neues Array der gleichen 
maximalen Lange bereitgestellt und darin wird der Inhalt des vorhergehenden Arrays kopiert. 
Das alte Array kann als uberflussig markiert werden (z.B. fur die Virtual Machine in Java). 



\ In der dritten Etappe der Arbeit des Verfahrens werden alle im vorhergehenden Schritt 
gespeicherten groBen A>Sequenzen durchgegangen. Uber die gespeicherte Nummer des 
25 zweiten Elternteils der Sequenz werden, unter Nutzung der oben beschriebenen Datenstruktur, 
die Nummern der ersten und letzten groBen £-Sequenzen gefunden, mit denen die gefundene 
Sequenz vereinigt werden kann. Weiter wird die Schnittbildungsoperation tiber den Listen der 
Transaktionen beider Sequenzen ausgefuhrt. Wenn die Lange der resultierenden Liste kleiner 
als der notwendige minimale Supportwert ist, so wird der betrachtete Kandidat sofort 
30 verworfen, sogar ohne Operation eines unmittelbaren Kandidaten und der Auszahlung der 
Anzahl der Transaktionen, welche diesen enthalten. Andernfalls erfolgt die Erzeugung der 
Sequenz der Elemente des Kandidatenselbst und die Uberprufung jeder Transaktion aus der 
Schnittbildung erhaltenen Liste auf den Inhalt der in ihr enthaltenen Kandidaten-Sequenzen. 
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Wenn in einer Transaktion eine entsprechende Sequenz gefunden wurde, so wird die Nummer 
dieser Transaktion gespeichert. Auf diese Weise liegt nach der Bearbeitung eines Kandidaten 
eine Liste der Transaktionen vor, welche den Kandidaten enthalten. Wenn die Anzahl solcher 
Transaktionen nicht kleiner der Mindestanzahl ist, so wird dieser Kandidat zusammen mit der 
5 Nummer seines zweiten Elternteils gespeichert. 

Die oben beschriebenen Aktionen werden fur jeden Kandidaten wiederholt. Wenn im 
Ergebnis keine einzige groBe Sequenz gefunden wurde, so wird die Arbeit der dritten Etappe 
des Verfahrens beendet und die Ergebnisse werden iiber das Interface ausgegeben. Es kann 
zwei Griinde geben, warum im Verlauf eines Schrittes keine einzige groBe Sequenz gefunden 
10 wurde. In der Menge kann keine Sequenz vorliegen, welche einen Kandidaten mit einer 
anderen Sequenz bilden konnte, dass heiBt, in einem Schritt existiert kein einziger Kandidat. 
'•k Ein anderer Grund kann die Variante sein, in der im Ergebnis kein einziger Kandidat eine 
groBe Sequenz darstellt. 

Fassen wir zusammen. Die erste Variante des Verfahrens erweist sich als schnell auf grofien 
15 Datenmengen und weist einen sparsamen Speicherplatzbedarf auf. Schwer vorhersehbar sind 
der Aufwand bezuglich Speicherplatz und Rechenzeit hinsichtlich der Benutzung von 
Transaktionslisten, aber empirische Berechnungen und experimentelle Resultate zeigen, dass 
auf realen Daten ihre GroBe eine Tendenz zur starken Verringerung aufweist, da mit 
Erhohung der Lange der bearbeiteten Sequenzen diese in einer zunehmend geringeren Anzahl 
20 von Transaktionen enthalten sind und sich folglich die Lange der Listen verringert wie auch 
die zu ihrer Bearbeitung benotigte Zeit. 



\ Folglich muB fiir die Arbeit der ersten Variante des Verfahrens die Eingangsmenge der 
Transaktionen in Form einer Liste von Sequenzen ganzer Zahlen eingegeben werden, der 
minimale Supportwert als Floatwert und femer der verfugbare Speicherplatz fur die zweite 
25 Etappe des Verfahrens. 

(5) Beschreibung des zweiten Variante des Verfahrens 

Die zweite Variante des Verfahrens wurde zum Zweck des Vergleichs mit der ersten Variante 
des Verfahrens bezuglich Geschwindigkeit und Speicherplatz erarbeitet und realisiert. In 
Abbildung 2 wurde im Pseudocode das Prinzip der Arbeitsweise der zweiten Variante des 
30 Verfahrens dargestellt. ^ 
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Lj = {large 1 -sequences}; 

for (&=2; Lk-2 * 0; *++) do begin 

C k = candidate-gen(L*-/); // neue Kandidaten 
forall transactions t e D do begin 
5 C, = subset(Gb r); 

forall candidates c e C t do 
c.count++; 

end 

Zjfc = {c <r C/t | c.count > minsup} 

10 end 

answer = U 




Abbildung 2: Zweite Variante des Verfahrens im Pseudocode. 



Das dargestellte Verfahren ist sehr allgemein und konkretisiert nicht die Methode der 
Auswahl der Kandidaten, welche in einer konkreten Transaktion enthalten sind. Im 

15 einfachsten Fall kann dies die Durchsicht aller Kandidaten sein mit dem Ziel, diejenigen 
auszuwahlen, welche in der Sequenz der Transaktion enthalten sind. Eine andere Variante ist 
die Durchsicht aller Sequenzen einer gegebenen Lange und die Auswahl derjenigen aus ihnen, 
welche Kandidaten darstellen. Es ist klar, dass beide Methoden inakzeptabel wegen deren 
geringer Effizienz sind; in der Realisierung der zweiten Variante wird daher eine andere 

20 Methode beschrieben. 

Die zweite Variante benutzt eine Reihe gleicher Ideen wie die erste Variante. Insbesondere 
\ wird zur Berechnung der Menge Lj der gleiche Ansatz ohne grofie Anderungen benutzt. Die 
gesamte Beschreibung der ersten Etappe der Arbeit der ersten Variante des Verfahrens, 
welche oben angefuhrt wurde, gilt auch bezuglich der zweiten Variante. Wie bereits oben 
25 erwahnt, benutzt die zweite Variante des Verfahrens zur Summierung des Supports der 
Kandidaten die Idee, welche in der ersten Variante nur in der zweiten Etappe zur Generierung 
der Menge der groBen 2-Sequenzen L2 benutzt wurde. 

(6) Details der Realisierung der zweiten Variante 

Um fur jede Transaktion die Moglichkeit zur Bestimmung der Liste der in ihr enthaltenen 
30 Kandidaten zu erhalten, wird in 'der zweiten Variante des Verfahrens eine spezielle 
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Datenstruktur benutzt. Beginnend mit der zweiten Etappe des Verfahrens wird jede 
Transaktion als Liste der Nummern der im vorhergehenden Schritt des Verfahrens 
gefundenen fc-Sequenzen dargestellt. Unter Durchsicht der Paare dieser /r-Sequenzen und 
deren Zusammenfugung gemaB der oben beschriebenen Methode der Kandidatengenerierung 
kann man alle Kandidaten der Lange £+1 erhalten, welche in einer bestimmten Transaktion 
enthalten sind. Jedoch zur Trennung der Kandidaten ist die Liste der groBen ^-Sequenzen als 
zweidimensionales Array von Werten organisiert. Die resultierende Datenstruktur wird im 
nachsten Beispiel illustriert: 

Angenommen, die Eingangsmenge der Transaktionen enthalt folgende Transaktion: 
<3 1 3 2 1> 

Wir nehmen weiterhin an, dass in der zweiten Etappe der Arbeit des Verfahrens festgestellt 
wurde, dass die in dieser Transaktion enthaltenen Sequenzen <3 1>, <3 2>, <1 2> und <1 1> 
groii sind und jeweils die Nummern 5, 7, 3 und 1 besitzen. Dann wurde im Ergebnis der 
zweiten Etappe der Arbeit des Verfahrens folgende Datenstruktur erzeugt, welche der 
gegebenen Transaktion entspricht: 

1. 57 

2. 3 1 

3. 7 5 

4. - 

Die Anzahl der Zeilen in dieser Struktur ist gleich der Anzahl der Elemente in der 
Transaktion wahrend der Etappe der Konstruktion der Menge L 2 . In den weiteren Etappen ist 
diese Menge gleich der Zahl der Zeilen in der vorhergehenden Struktur fur diese Transaktion. 
Jede Zeile enthalt die Nummern der groBen Sequenzen, welche mit diesem Element beginnen 
oder mit dieser Zeile in der Struktur, welche im vorhergehenden Schritt erzeugt wurde. In 
jedem Schritt werden die Paare der Nummern der groBen Sequenzen des vorhergehenden 
Levels betrachtet und das Verfahren durchsucht alle Paare von Nummern, welche vereinigt 
werden konnen. Der Test auf die Moglichkeit zur Verknupfung wird auf Basis des gleichen 
Prinzips wie in der ersten Variante des Verfahrens ausgefuhrt. 
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Eine derartige Struktur wird fur jede Transaktion gebildet und wird in jedem Schritt des 
Verfahrens aktualisiert. Die Erststruktur wird in der zweiten Etappe des Verfahrens erzeugt 
und das ist deren einziger Unterschied zur entsprechenden Etappe der ersten Variante des 
Verfahrens. In einem Schritt des Verfahrens werden nacheinander alle Transaktionen der 
Eingangsmenge behandelt, wobei die beschriebene Struktur genutzt wird. Schrittweise wird 
jedes Element jeder Zeile gewahlt und danach werden die Elemente jeder nachfolgenden 
Zeile durchsucht. Wenn das derart gewahlte Paar einen Kandidaten darstellen kann, so wird 
der Zahler seines Supports urn Eins erhoht. Zur Verhinderung einer mehrfachen 
Inkrementierung des Zahlers wahrend der Bearbeitung einer Transaktion kann die Idee der 
ersten Variante des Verfahrens herangezogen werden - fur jeden Kandidaten wird die 
Nummer der letzten inkrementierenden Transaktion gespeichert. 

Auf diese Weise zeigt sich, dass in der zweiten Variante des Verfahrens zur Laufzeit gar 
keine reelle Generierung von Kandidaten-Sequenzen vonnoten ist, da dies nicht fur die 
Summierung der Supportwerte benotigt wird - im Gegensatz zum ersten Verfahren. Die im k- 
ten Schritt gefundenen groBen £-Sequenzen werden in Form der Paare ihrer Eltern 
gespeichert. Dadurch wird Speicherplatz gespart, da in der Praxis die groBen £-Sequenzen am 
Ende der eigentlichen Arbeit des Verfahrens entstehen konnen, wahrend des Durchgangs von 
der Menge L/ zur Menge L n und keinen uberflussigen Speicherplatz wahrend der Arbeit des 
Hauptzyklus des Verfahrens einnehmen. 

Schwierig kann sich der ProzeJJ des Fiillens der benotigten Struktur gestalten, da wahrend der 
Bearbeitung der Transaktion die Nummern der Kandidaten bekannt sind, nicht aber die der 
groBen Sequenzen, welche erst nach der Bearbeitung aller Transaktionen bestimmt werden. 
Somit werden wahrend der Bearbeitung in die erneuerte Struktur die Nummern der in ihnen 
enthaltenen Kandidaten eingetragen. Nach Bearbeitung aller Transaktionen der 
Eingangsmenge miissen die in der Struktur enthaltenen Nummern unter Beriicksichtigung der 
Kandidaten, welche die Supportbedingung nicht erfullten, korrigiert werden. Der Teil des 
Verfahrens, in welchem die Nummern korrigiert werden, ist in Abbildung 3 dargestellt. 

m = 0; // Akkumulator der Korrektur 

forall c <= C k do begin // fur jeden Kandidaten 

if c.count>=minsup then c.correction = -w-1 

else 

end 
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Abbildung 3: Fragment des Verfahren zur Korrektur der Nummern. 

Nach Ausfuhrung dieses Fragments des Verfahrens ist fur jeden Kandidaten der Wert der 
Korrektur bekannt, welcher von der Nummer des Kandidaten abgezogen werden muB, um die 
Nummer der groBen Sequenz zu erhalten. In der Tat, um die Nummer der Sequenz aus der 
Nummer des Kandidaten zu erhalten, muB die Anzahl der den Test nicht bestandenen 
Kandidaten abgezogen werden, deren Nummern kleiner der Nummer des betrachteten . 
Kandidaten sind. Die letzte Etappe der Erneuerung der Struktur der Transaktionen ist die 
Transformation der Nummern der Kandidaten in die Nummern der groBen Sequenzen, 
gleichzeitig mit der Entfernung der Nummern der nicht-groBen Kandidaten und der 
Sortierung. 

Die Sortierung dient der Beschleunigung der Suche der paarweisen Sequenzen wahrend der 
Bearbeitung der Transaktionsstrukturen, dass heiBt, derjenigen Sequenzen, mit denen die 
gewahlte Sequenz vereinigt werden kann. Ohne die Sortierung der Zeilen der Strukturen der 
Transaktion wiirde die Suche des zweiten Elternteils einen vollstandigen Durchgang aller 
nachfolgenden Zeilen mit Priifung der Bedingung der Vereinigung bedeuten. Mit Hilfe der 
Sortierung der Werte der Nummern der groBen Sequenzen wird eine steigende Ordnung 
eingefuhrt und folglich ergibt sich die Moglichkeit, mittels Binarsuche in schnellster Weise 
einen Wert in der Zeile zu finden, mit welchem beginnend die Nummern der Eltern- 
Sequenzen gespeichert werden. Weiter wird ein geordneter Durchgang durch die Zeile 
ausgefuhrt, bis eine Nummer einer Sequenz groBer der maximal moglichen Elternnummer fur 
den gewahlten ersten Eltemteil gefunden wird. Experimentelle Daten haben gezeigt, dass die 
eingefuhrte Sortierung, welche nicht unbedingt fur die Arbeit des Verfahrens notwendig ist, 
die Arbeit in den Fallen beschleunigt, in denen in der mit einer gewissen Transaktion 
verbundenen Struktur nacheinander einige sehr lange Zeilen enthalten sind. In der ersten 
Variante, ohne Sortierung, konnte ein deutlicher Abfall der Effektivitat in einigen Teilen der 
Transaktionsmenge beobachtet werden, weswegen die Gesamtzeit der Arbeit des Verfahrens 
stark verlangert wird. Nach der Realisierung der Sortierung arbeitete das Verfahren auf 
solchen Daten um ein Mehrfaches schneller, abhangig von den konkreten 
Eingangstransaktionsmengen. 

Wahrend der Bearbeitung der Transaktionsstrukturen werden nacheinander die Nummern der 
groBen Sequenzen ausgewahlt, welche im vorhergehenden Schritt des Verfahrens gefunden 
worden sind und welche in der laufenden bearbeiteten Transaktion enthalten sind. Fur jede 
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gewahlte Nummer entsteht die Aufgabe der Bestimmung der Nummern des ersten und des 
letzten Elternteils, mit denen die Sequenz mit der gewahlten Nummer vereinigt werden kann. 
AuBerdem muB fur jeden Kandidaten die Nummer bekannt sein, urn den Zahler des Supports 
erhohen zu konnen. Teilweise wird diese Aufgabe wie in der ersten Variante des Verfahrens 
gelost. Jedoch wird in der Realisierung der zweiten Variante eine leicht abgewandelte Idee 
benutzt, unter Berucksichtigung der Notwendigkeit, die Nummer des Kandidaten zu kennen. 
In der ersten Variante ist die Nummer des Kandidaten bekannt, da im Hauptzyklus faktisch 
ein Durchlauf durch die Kandidatenmenge stattfindet und zur schnellen Ermittlung der ersten 
und letzten Nummer moglicher Eltern wird in jedem Schritt eine spezielle Struktur erneuert. 
In der zweiten Variante wird eine modifizierte Struktur angewandt, unter Berucksichtigung 
der Notwendigkeit der Speicherung der Nummern der entsprechenden Kandidaten. AuBer den 
Nummern moglicher Eltem wird in jedem Eintrag dieser Struktur gleichfalls die Nummer des 
ersten Kandidaten, welcher erzeugt werden kann, gespeichert. Auf diese Weise konnen uber 
die Nummer des zweiten Eltemteils einer groBen Sequenz gleich die Nummern der Eltem 
ermittelt werden, mit welchen die betrachtete Sequenz vereinigt werden kann, sowie die 
Nummern der entsprechenden Kandidaten. 

Die zweite Variante des Verfahrens erfordert, wie auch die zweite Etappe des ersten 
Verfahrens, die Allokation von Speicher fur die Werte der Zahler des Supports und das Array 
der Nummern der Transaktion, welche als letzte den Zahler inkrementierte. 

(7) Beschreibung des Programminterfaces 

Das Programminterface wird in Form eines Beispiels der Benutzung des Verfahrens in einem 
Java-Programm betrachtet. 

Die Klasse TransactionSetSeq wird zur Speicherung des Satzes der sequentiellen 
Eingangstransformationen benutzt. Eine Instanz der Klasse wird mittels folgender 
Anweisung realisiert; 

TransactionSetSeq tss = new TransactionSetSeq 0; 

Nun fugen wir alle Transaktionen des Eingangssatzes hinzu: 

for(int M);i< <Anzahl Transaktionen>;i* : +) { 
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Jede sequentielle Transaktion wird als eine Instanz der Klasse ItemSetSeq reprasentiert: 
ItemSetSeq iss = new ItemSetSeqO; 

Die Elemente der Transaktionen sind ganze Zahlen - zum Hinzufugen eines neuen Elementes 
zur Transaktion dient folgende Methode der Klasse ItemSetSeq: 

void addltem(int item); 

Wir fiigen alle Elemente der aktuellen Transaktion hinzu: 

for(int j=0;j< <Anzahl der Elemente der aktuellen Transaktion>; 

iss.addItem(<Nummer des Elementes>); 

^ Zum Hinzufugen einer Transaktion zum Transaktionssatz wird folgende Methode der Klasse 
1 0 TransactionSetSeq benutzt: 

void addTransaction(ItemSetSeq iss); 
tss.addTransaction(iss); 

} 

15 Zur Berechnung der Sequenzen muB eine Instanz der Klasse Sequential oder Sequential 
erzeugt werden: 

Ht Sequential seq = new Sequential; 

Sequential! seq2 = new SequentiaUO; 

Zum Starten des Verfahrens ist es notwendig, folgende in den Klassen Sequential und 
20 Sequential! enthaltene Methode aufzurufen: 

SequentialResult SequentialAlg(TransactionSetSeq tss t double minsupp); 

wobei 

tss - Eingangsmenge der Transaktionen, 
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minsupp - minimaler Supportwert 
SequentialResult seqResult = seq.SequentialAlg(tss>minsupp); 

oder 

SequentialResult seqResult = seq2.SequentialAlg(tss,minsupp); 

Das Ergebnis der Arbeit des Verfahrens wird in dem Objekt der Klasse SequentialResult 
gespeichert. 

Zum Zugriff der gefiindenen Sequenzen enthalt die Klasse SequentialResult folgende 
Methode: 

ItemSetSeqList getLargeSequencesQ; 

ItemSetSeqList issList = seqResult.getLargeSequencesO; 

Die Klasse ItemSetSeqList enthalt die Methoden: 

int getSizeO; - liefert die Anzahl der gefiindenen Sequenzen, 

ItemSetSeq getltemSetAtfint index); - liefert die Sequenz der Nummer index. 

forfint i=0;i < issLisLgetSizeO; /++> { 

ItemSetSeq iss = issListgetltemSetAt(i); 
Zum Zugriff der Sequenz enthalt die Klasse ItemSetSeq folgende Methode: 

int getltemAtfint index); 
Folgende Methode liefert die Lange der Sequenz: 

int getSizeO; 

forfint j=0;j<iss.getSize();j++) 

int item = iss.getltemAtQ); 

} 



V 



-21 - 

Den Wert des Zahlers fur den Support liefert folgende Methode der Klasse ItemSetSeq: 
int getSupportCountO; 

Der eigentliche Supportwert support fur jede Sequenz ist der Quotient des Wertes des 
Support-Zahlers und der Anzahl aller Transaktionen. 

5 (8) Anwendung 

Im weiteren soli die Anwendung des beschriebenen Verfahrens am Beispiel der 
Clickstreamanalyse von Webservern erlautert werden. 

Webserver speichern die Informationen iiber abgerufen HTML-Seiten einer Website in 
Logfiles oder Datenbanken. Die Information iiber die abgerufenen HTML-Seiten wird hierbei 
in einer Tabelle gespeichert. Die Spalten entsprechen den Informationen iiber die abgerufene 
Seite wie beispielsweise Datum und Uhrzeit, URL der aufgerufenen HTML-Seite, Referer- 
URL, Typ des Web-Browsers. Die Zeilen entsprechen den abgerufenen HTML-Seiten selbst 
Uber verschiedene Mechanismen, die hier nicht weiter ausgefuhrt werden sollen, ist es 
moglich, Websessions zu identifizieren und jeder abgerufenen Seite zuzuordnen. Eine 
Websession ist eine Sequenz der von einem User der Website hintereinander abgerufenen 
HTML-Seiten. 

Aufgabe der Clickstreamanalyse ist das Herausfinden typischer Pfade, entlang derer sich die 
User einer Website hauptsachlich bewegen. Beispielsweise kann es fur einen E-Commerce 
Shop passieren, dass viele Nutzer Uber die Hauptseite den Shop betreten, in eine gewisse 
Produktkategorie gehen, ein spezielles Produkt in Detailansicht betrachten und danach - den 
Shop verlassen. Das lasst darauf schliefien, dass das betrachtete Produkt die Erwartungen 
verfehlte und seine Presentation dringend verbessert werden mufl. Wenn Nutzer zyklische 
Pfade wahlen, lasst sich oftmals daraus schliefien, dass sie der Shop unubersichtlich aufgebaut 
ist, usw. 

25 Das Herausfinden der typischen Pfade in Websites stellt eine Aufgabe der Sequenzanalyse 
dar. Hierbei ist / = fliJz-Jn} die Menge aller HTML-Seiten unserer Website. Jede 
Transaktion T entspricht einer Websession, deren Elemente eine Sequenz <sa,si,...,Sk> von 
HTML-Seiten bilden. Die GesamtzaJbl-der Transaktionen D entspricht alien Websessions des 
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Webservers. Die Aufgabe der Clickstreamanalyse besteht nun darin, fur einen vorgegebenen 
minimalen Supportparameter s alle grofien Sequenzen von HTML-Seiten zu finden. Diese 
stellen die typischen Nutzerpfade der Website dar, deren Analyse - wie oben dargelegt - zu 
einer Verbesserung der Struktur der Website genutzt werden kann. 

Zur Berechnung der groflen Sequenzen ist das in der Erfindung beschriebene Verfahren sehr 
gut geeignet, insbesondere deswegen, weil es groBe Datenmengen analysieren kann. Gerade 
Logfile-Tabellen stark besuchter Websites weisen aber haufig Millionen abgerufener HTML- 
Seiten auf und stellen somit hochste Anspruche an Sequenzanalyse verfahren. Die Auswertung 
dieser Informationen mittels Sequenzanalyse war daher zumeist auBerordentlich 
rechenzeitintensiv und auf Sonderfalle (Sequenzen der Lange 2, nur wenige Websessions, 
usw.) beschrankt. Das beschriebene Verfahren uberwindet diese Beschrankung ftir nahezu 
alle auf derzeitigen Webservern anfallenden Clickstream-Daten. 

Die in der vorstehenden Beschreibung offenbarten Merkmale der Erfindung konnen sowohl 
einzeln als auch in beliebiger Kombination ftir die Verwirklichung der Erfindung in ihren 
verschiedenen Ausfuhrungsformen von Bedeutung sein. 



